PNAS文章是怎么说绝对定量转录组测序的?| UMI性能测试
上期重点介绍了如何设计一个好的UMI标签 ,本期我们来瞧瞧这个精心设计的UMI标签的性能表现。
2. 定量内标序列与标签抽样偏好
2.1 准确定量内标序列
作者为校准digital RNA-Seq系统,使用数字PCR仪测定了5个人工合成的DNA spike-in序列的浓度,并将其作为内标。带了标签的spike-in 样本,与同样加了标签的E. coli cDNA文库混合,然后用digital RNA-Seq 进行定量。图3 A显示测序获得的spike-in序列的数字计数结果与数字PCR定量结果非常吻合。
图3A 使用数字PCR和unique标签数字计数法定量5种不同spike-in序列数量的相关性分析。理论曲线(Theoretical Curve)是基于泊松分布计算,已被21,025个标签所饱含。
2.2定量比较:随机vs 固定
为评估使用随机序列标签(以下简称随机标签)和优化的固定序列标签(以下简称固定标签)之间的差异,作者进行了两个实验。在一个实验中,使用随机标签标记spike-in分子,而在第二个实验中使用优化的固定标签集。作者对最高丰度的spike-in序列所检测到的全部标签的read数量构建了直方图(见图3B)。当使用随机标签(图3B中的红色直方图)时,最左边的bin显示出大的峰值,这是因为一大部分的标签由于测序错误而成为稀少的read;这会导致标签互换,产生假的定量。形成鲜明对比的是,当使用优化的固定标签(图3B中的绿色直方图)时,最左边的bin没有这样的峰值,因为优化的标签序列避免了由于测序错误而导致的错误识别。
图3B 直方图分析两个实验中丰度最高的spike-in序列所检测到的标签的read数量。红色直方图对应于用随机标签标记的spike-in序列,绿色直方图对应于用优化的固定标签标记的spike-in序列。请注意,红色直方图中最左边的bin比绿色直方图的大10倍以上,并且包含了大量低read数量的unique标签。这种差异是由测序和PCR扩增错误引起的,这些错误会产生原始样本中不存在的新的人为的unique标签,并导致大量被错误识别的unique标签。(插图)更详细的红色直方图。
请注意,图3B中的绿色直方图是来自特定spike-in的5,311个unique标签标记分子的read数的分布。假设每个标签标记的spike-in分子是相同的,图3B中的绿色直方图本质上是单个分子的read数量的概率分布,其跨越三个数量级。这种宽分布主要来自样品制备中固有的PCR扩增噪音。鉴于这种宽的单分子分布,对于原始样品中的低拷贝分子,计算reads的总数量(像常规RNA-Seq那样)将是灾难性的。另一方面,如果使用digital RNA-Seq方法计算不同标签的数量(直方图的积分面积),就可以避免这个问题,从而产生具有单拷贝分辨率的精确定量。只有当原始样本中的拷贝数很高时,并且假设没有序列偏好,两种计数方案才能给出相同的结果。
2.3标签抽样无偏好
每个目标序列对标签序列的随机抽样对于精确的数字计数至关重要。图3C显示检测到的标签分子计数的分布与泊松统计非常吻合。因此,作者认为,5个spike-in序列对21,025个标签对的结合是没有偏好的。
图3C 直方图分析5个spike-in序列结合的标签对被检测到的次数;由于spike-in序列对标签对是随机采样并且几乎无偏好,因此直方图遵循泊松分布。
UMI标签定量spike-in序列没问题,那么定量复杂度远胜spike-in的转录组表现会如何呢,我们下期接着说。
相关阅读推荐